An Innovative Two-Stage WSD Unsupervised Method Un Innovador Método No Supervisado para Desambiguación de Sentidos de Palabras basado en dos etapas

نویسندگان

  • Javier Tejada Cárcamo
  • Alexander Gelbukh
  • Hiram Calvo
چکیده

An unsupervised method for word sense disambiguation is proposed. The sense of the word is chosen to be the most similar to the senses of other words that appear in the corpus in similar contexts. Training consists of building a weighted list of related words (quasi-synonyms) for each word; the weights are obtained by measuring similarity between the word’s contexts. We adapt the algorithm of McCarthy et al. 2004 for finding the best sense in each occurrence, instead of finding the predominant sense of each word in the entire corpus. Their maximization algorithm allows then each quasi-synonym to accumulate a score for each ambiguous word sense; the sense with the highest score is chosen. We obtain a top precision of 69.86% using the same corpus for training and disambiguating.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Nueva Propuesta de Desambiguación de Sentidos de Palabras para nombres en un sistema de Búsqueda de Respuestas

Resumen: Este artículo describe el impacto de un algoritmo de Desambiguación de Sentidos de Palabras (WSD) para nombres en AliQAn, el sistema de Question Answering con el cual hemos participado en el CLEF-2005. Al aplicar el WSD tradicional, el rendimiento se decrementa en un 4.7% en el Mean Reciprocal Rank (MRR). Para resolver este problema, proponemos dos aplicaciones de WSD: (1) elegir un gr...

متن کامل

Desarrollo de un modelo para encontrar la similitud semántica multilingüe

Resumen. En el presente trabajo se desarrollan dos modelos para detectar el grado de similitud semántica entre pares de sentencias. El primer modelo está basado en aprendizaje supervisado, este utiliza un vector compuesto por dieciséis características para la representación de cada par de sentencias, con el que se entrena un clasificador. El segundo es un modelo no supervisado, el cual, basa su...

متن کامل

Estudio sobre métodos tipo Lesk usados para la desambiguación de sentidos de palabras

Resumen. La ambigüedad semántica es un problema que se presenta en todos los lenguajes naturales. Podríamos decir que para los seres humanos la ambigüedad en el lenguaje pasa desapercibida, debido a que la resolvemos casi inconscientemente utilizando la realidad en que vivimos, el contexto y el conocimiento que poseemos sobre algunos temas. Pero para las computadoras no es así. En el área de pr...

متن کامل

Utilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras

La desambiguación del significado de las palabras se ha desarrollado como una subárea del Procesamiento del Lenguaje Natural (PLN), donde el objetivo es determinar el sentido correcto de aquellas palabras que tienen más de un significado, no es una tarea final en sí misma, sino una tarea intermedia necesaria en variadas aplicaciones del procesamiento del lenguaje natural. La resolución de la am...

متن کامل

Desarrollo de un compresor de textos orientado a palabras basado en PPM

Resumen Reducir el espacio de almacenamiento y el tiempo de transferencia se ha vuelto un aspecto fundamental en las Bases de Datos Textuales. En este trabajo se presenta un nuevo compresor, denominado PPM orientado a palabras (SWPPM), en el que se aplican los modelos estad́ısticos propios de PPM utilizando como śımbolos de entrada las palabras. Presenta varios desaf́ıos técnicos para los que es ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008